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基于 深度 学 习 算 法 的 学 术 查 询 意 图 分 类 器 构建 
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摘 要 : [目的 /意义 ] 实 现 学 术 查 询 意 图 的 自动 识别 ,提高 学 术 搜 索引 擎 的 效率 。[ 方 法 /过 程 ] 结合 已 有 查询 意图 特征 和 学 
术 搜 索 特点 ,从 基本 信息 、 特 定 关键 词 \ 实 体 和 出 现 频 率 4 个 层面 对 查询 表达 式 进 行 特征 构造 ,运用 Naive Bayes, Lo- 
gistic 回归 、SVM、Random Forest 四 种 分 类 算法 进行 查询 意图 自动 识别 的 预 实验 ,计算 不 同方 法 的 准确 率 、 召 回 率 和 了 
值 。 提 出 了 一 种 将 Logistic 回归 算法 所 预测 的 识别 结果 扩展 到 大 规模 数据 集 、 提 取 “ 关 键 词类 "特征 的 方法 构建 学 术 
查询 意图 识别 的 深度 学 习 两 层 分 类 器 。[ 结果 /结论 ] 两 层 分 类 器 的 宏 平 均 Fl 值 为 0.651, 优 于 其 他 算法 ,能 够 有 效 


T— 平衡 不 同学 术 查 询 意图 的 类 别 准确 率 与 召回 率 效果 。 两 层 分 类 器 在 学 术 探 索 类 的 效果 最 好 ,F] 值 为 0.783。 
S LE 学 术 查 询 意 图 “自动 识别 ”两 层 分 类 器 
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句 的 查询 意图 ,而 通过 对 学 术 查 询 意 图 的 识别 ,可 为 进 
步 优化 学 术 搜 索 结果 、 提 高 检索 效率 节约 用 户 时 
间 ,使 得 用 户 的 学 术 搜 索 体验 得 以 提高 .获取 更 精准 的 
学 术 信息 。 
查询 意图 自动 识别 多 采用 文本 分 类 的 算法 ,研究 
人 员 通 常 针 对 一 个 分 类 算法 ,通过 组 合 不 同 的 特征 , 试 
验 查询 意图 识别 的 效果 。 实 验 的 基础 是 查询 意图 的 类 
目 体系 ,而 针对 学 术 查 询 意 图 的 分 类 大 多 在 普通 查询 
意图 的 基础 上 展开 ,缺乏 学 术 查 询 意 图 的 专门 类 目 体 
系 ,在 此 基础 上 ,本 文 的 前 序 基 础 研究 构建 了 学 术 查 询 
意图 类 目 体 系 , 共 分 为 5 类 : 
(1) 学 术 文 献 类 : 指 用 户 通 过 查询 式 获取 某 篇 特 


(Web of Science ,CNKI 等 ) 的 检索 系统 的 专业 化 ,各 数 
据 库 间 不 能 共享 互联 “一 站 式 "学 术 搜 索引 擎 如 百度 
学 外、 谷 歌 学 术 成 为 学 术 查询 的 首选 -5 。 由 于 用 户 
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的 学 术 背 景 和 学 术 能 力 不 同 ,在 进行 学 术 查 询 时 其 需 
求 往往 不 同 。 对 于 使 用 学 术 搜 索引 擎 的 科研 用 户 , 其 
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需要 多 样 化 的 学 术 信息 ,了 解 研究 进展 .追踪 研究 前 
沿 ,简短 的 查询 表达 式 并 不 足以 准确 表达 其 学 术 查 询 
意图 ;对 于 学 术 新 手 或 非 科 研 用 户 使 用 学 术 搜索 引擎 
时 , 因 其 对 相关 学 术 领 域 的 了 解 较 浅 ,进行 学 术 查 询 时 
的 关键 词 并 不 准确 ,从 而 不 能 获取 精准 的 学 术 信 息 。 

学 术 查 询 意 图 为 用 户 进行 学 术 搜 索 时 通过 查询 表 
达 式 所 表达 的 用 户 信息 需求 。 现 有 的 学 术 搜索 引擎 多 
为 基于 关键 词 匹配 的 搜索 技术 ,不 能 识别 学 术 查 询 语 


定 的 学 术 出 版 文献 ,如 通过 学 术 文 献 的 标题 构造 查询 
式 进行 查询 。 

(2) 学 术 实 体 类 : 指 用 户 通过 查询 获取 学 术 实 体 
的 相关 信息 ,如 科研 机 构 实 体 “山东 省 农业 科学 院 作物 
研究 所 ”。 

(3) 学 术 探 索 类 : 指 用 户 在 某 个 领域 进行 探索 性 
查询 , 需 多 次 交互 查询 才 可 获取 所 需 的 学 术 资 源 , 如 对 
学 术 概 念 词 “神经 网 络 算法 "进行 查询 等 。 
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(4) 知 识 问 答 类 : 指 用 户 通过 查询 获取 某 个 特定 
问题 的 答案 ,如 " 亚 急性 甲状 腺 炎 治 愈 后 会 复发 吗 ?” 
等 问题 。 

(5) 非 学 术 文 献 类 : 指 用 户 通过 查询 希 望 获取 一 
些 政策 ,行业 报告 等 非 学 术 文献 ,如 查询 “汽车 下 乡 的 

为 了 适度 提高 学 术 查 询 意图 分 类 的 召回 率 ,本 研 


研究 者 们 对 该 类 特征 的 研究 较 多 ,比如 B. Jansen "| 和 
M. Herrera ”先后 总 结 了 英文 综合 搜索 中 关键 词 特征 
与 查询 意图 的 对 应 情况 ; 张 晓 娟 “总结 了 中 文 综 合 搜 
索 查询 中 不 同意 图 类 别 查询 的 特征 词 。 针 对 学 术 搜 
索 ,M. Khabsa P 通过 对 学 术 搜 索引 擎 CiteseerX 的 
查询 意图 分 析 , 总结 了 学 术 搜 索 中 导航 类 查询 的 特征 


18] ,例如 是 否 包含 年 份 \ 是 否 包含 标点 符号 、 是 否 包含 


究 构 建 了 基于 Logistic 回归 算法 的 两 层 分 类 器 来 实现 
学 术 查 询 意图 的 自动 识别 ,提出 了 适用 于 学 术 查 询 意 
图 识别 的 4 个 特征 :基本 信息 、 词 中 信息 、 实 体 信息 和 
出 现 频 率 , 并 在 百度 学 术 查 询 日 志 数 据 集 进 行 测 试 和 
评价 。 


2_ 相 关 研 究 


一 关于 学 术 查 询 意图 识别 的 研究 较 少 ,多 为 面向 图 
书 查询 的 意图 识别 研究 或 应 用 ,如 胡 伶 起” 将 图 书 检 
过 的 查询 意图 分 为 单 意图 与 多 意图 并 利用 词典 对 检索 
HTI ERO 借鉴 与 完善 胡 伶 起 加 的 图 书 检索 
i 硒 询 意图 体系 用 以 提高 图 书 分 面 检索 的 效果 。 针 对 
查询 意图 识别 研究 较 少 且 多 聚焦 在 图 书 查询 意图 
砍 私 这 一 现状 ,考虑 到 学 术 搜 索 是 搜索 的 一 个 特定 和 
部 吏 索 子 领域 ,因此 可 借鉴 综合 搜索 引擎 中 的 用 户 查 
询 意图 识别 研究 。 
. 忆 以 综合 搜索 引擎 中 的 用 户 查 询 意图 为 研究 对 象 的 
珍 沁 意图 识别 分 类 方法 可 分 为 人 工 识别 方法 ”和 自 
动 湛 别 方法 "。 由 于 查询 意图 人 工 识别 成 本 较 大 ,多 
数 三 究 采用 自动 识别 方法 ,涉及 的 分 类 特征 以 及 分 类 
2.1 ”查询 意图 自动 识别 的 分 类 特征 来 源 

查询 意图 自动 识别 的 分 类 特征 来 源 包括 “搜索 引 
擎 检索 结果 的 点 击 行为 用户 查询 表达 式 ” 等 。] 
Brenes 4$ 指出 用 户 的 点 击 行为 是 查询 意图 分 类 的 
最 有 效 特征 ,但 点 击 行为 数据 涉及 用 户 隐私 ,存在 获取 
权限 的 问题 , 仅 有 Y. Liu 等 "的 实验 中 利用 了 点 击 分 
布 作为 特征 进行 查询 意图 识别 。 研 究 人 员 大 多 通过 对 
查询 表达 式 进行 分 析 以 获取 综合 搜索 中 查询 意图 的 分 


停 用 词 等 。 尽 管 利 用 查询 表达 式 中 的 词汇 信息 作为 特 
征 的 方法 比较 简单 ,但 众多 研究 的 结果 表明 该 类 特征 
对 查询 意图 的 识别 较为 有 效 。 

(3) 实 体 信息 : 指 查询 表达 式 中 所 含有 的 实体 信 
息 ,比如 张 晓 娟 “将 实体 与 查询 意图 进行 分 类 对 应 ， 
总 结 出 导航 类 查询 中 的 实体 多 为 人 名 、 地 名 、 机 构 名 ， 
资源 类 查询 中 实体 多 为 游戏 名 、 歌 曲名 等 ;Y. Chang 
等 "1 将 实体 的 自然 语言 处 理 结果 作为 分 类 的 特征 。 
2.2 查询 意图 自动 识别 算法 

查询 意图 自动 识别 算法 采用 基于 查询 表达 式 特征 
的 方法 对 查询 意图 进行 识别 ,其 本 质 上 是 一 种 文本 分 
类 方法 ,在 进行 分 类 器 选择 时 ,研究 者 往往 会 根据 实验 
数据 集 .实验 数据 特征 和 具体 分 类 任务 的 情况 选择 不 
同 的 分 类 算法 ,如 SVM ARA PLAS 等 ,例如 ,Y. Liu 
等 "使 用 典型 决策 树 算法 将 nCS .nRS 和 点 击 分 布 三 
种 特征 结合 起 来 执行 识别 任务 ; M. Mendoza * 利用 
SVM 与 PLSA 对 查询 意图 进行 归 类 ;YY. Chang 等 '” 提 
出 了 使 用 自然 语言 处 理 (NLP) 的 分 析 结 果 作为 特征 进 
行 查询 意图 分 类 的 方法 ,取得 了 较 好 的 结果 。 查 询 意 
图 自动 识别 的 特征 与 方法 大 多 针对 综合 搜索 引擎 , 较 
少 关注 学 术 搜索 这 一 垂直 细 分 领域 ,由 于 学 术 搜 索 的 
专业 性 与 特殊 性 ,其 特征 与 方法 并 不 能 直接 适用 于 学 
术 查 询 意 图 的 自动 识别 , 需 在 查询 意图 识别 的 基础 上 
进一步 扩展 ,以 适应 学 术 查 询 意 图 的 自动 识别 。 


3 ”特征 选择 与 分 类 器 构造 


3.1 学 术 查 询 意 图 的 特征 提取 
综合 搜索 中 查询 意图 的 特征 可 从 查询 词 中 获 
得 ,可 分 为 基本 信息 ” 、 词 中 信息 "" 和 实体 信 


类 特征 ,可 归纳 概括 为 基本 信息 、 词 中 信息 和 实体 信 
息 ” 三 类 。 
(1) 基 本 信息 : 指 查 询 表 达 式 的 长 度 、 词 项 个 数 、 
词 项 长 度 等 基本 信息 ,比如 N. Belkin'” 通过 实验 得 出 
查询 表达 式 词 长 为 2 以 下 的 意图 大 概率 为 导航 类 , 词 
长 越 长 的 查询 表达 式 为 信息 类 查询 的 概率 越 大 。 
(2) 词 中 信息 : 指 查 询 表达 式 中 所 含 的 词汇 信息 。 


息 “" 三 类 ,结合 学 术 搜 索 的 特点 ,可 将 学 术 查 询 意 图 
的 分 类 特征 扩展 为 基本 信息 、 词 中 信息 .实体 信息 和 词 
汇 出 现 频率 的 统计 特征 4 个 方面 。 由 于 百度 学 术 中 约 
占 30% 的 查询 表达 式 为 英文 ,因此 学 术 查 询 意图 分 类 
特征 时 对 中 英两 种 语言 进行 了 综合 考量 。 
3.1.1 基本 信息 特征 

基本 信息 特征 是 指 可 从 查询 表达 式 中 直接 提取 的 
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信息 ,如 查询 表达 式 的 长 度 、 词 项 个 数 . 词 项 长 度 ,该 特 
征 可 分 为 两 个 维度 :字符 特征 与 词 项 特征 。 

字符 特征 包括 :查询 表达 式 字符 数 和 字符 占 比 。 
前 者 是 指 查 询 表达 式 中 不 同类 别 字符 的 绝对 数值 ;后 
者 是 指 不 同类 别 字符 在 查询 表达 式 的 相对 比例 。 查 询 
表达 式 字符 分 为 中 文字 符 英文 字符 ,标点 符号 字符 、 
其 他 字符 ( 除 中 / 英 / 标 点 之 外 的 字符 ) 四 类 ,在 统计 绝 
对 数值 时 ,每 个 字符 都 计数 为 1。 

词 项 特征 包括 :查询 表达 式 词 项 数 和 查询 表达 式 
占 比 。 前 者 是 指 查询 表达 式 中 不 同类 别 词 项 的 绝对 数 
值 ;后 者 是 指 不 同类 别 词 项 在 查询 表达 式 的 相对 比例 。 
由 于 中 英文 的 区 别 ,在 实验 过 程 中 ,对 中 文 查询 表达 式 
进行 分 词 的 预 处 理 , 按 分 词 结果 计算 中 文 的 词 项 数量 
同时 将 单个 英文 单词 算 为 一 个 词 项 。 

二 查询 表达 式 的 基本 信息 维度 四 类 特征 如 表 1 所 


表 1 基本 信息 维度 特征 

e ^ 类 别 特征 

总 字符 数 ;中 文字 符 数 ;英文 字符 数 ;标点 符号 字符 
数 ;其 他 字符 数 
中 文字 符 占 比 ;英文 字符 占 比 ;标点 符号 占 比 ;其 他 
字符 占 比 
总 词 项 数 ;中 文 词 项 数 ;英文 词 项 数 ;其 他 词 项 数 
中 文 词 项 占 比 ;英文 词 项 占 比 ;其 他 词 项 占 比 


式 词 项 数 
式 词 项 占 比 


b: 


» 
p 词 中 信息 


Guo ”研究 发 现 英文 综合 搜索 中 有 70% 的 查询 表达 式 
中 包含 命名 实体 。 同 时 由 于 本 文 的 前 序 研究 的 学 术 查 
询 意 图 类 目 体 系 中 有 学 术 实 体 类 ,因此 本 研究 将 实体 
信息 作为 一 个 特征 ,主要 用 于 识别 学 术 实 体 类 的 查询 
表达 式 。 具 体 来 说 ,作为 特征 的 命名 实体 包括 以 下 四 
种 :人 名 、 地 名 、 机 构 名 ,学 术 实 体 ( 如 :杂志 、 大 学 .研究 
所 、 研 究 院 .中心 .实验 室 等 )。 
3.1.4 词汇 出 现 频率 的 统计 特征 

在 本 研究 的 人 工 标注 实验 过 程 中 发 现 学 术 专 有 名 
词 ( 例 如 ,氨基 酸 、 茶 ) 在 学 术 探 索 类 查询 表达 式 中 出 
现 的 频率 较 高 ,而 日 常 词汇 在 知识 问答 类 查询 式 中 的 
词语 出 现 频 率 较 高 。 为 了 描述 该 类 特征 ,本 研究 借鉴 
Inverse Document Frequency ( IDF) 的 概念 ,提出 了 一 个 
出 现 频率 S(W) 的 指标 ,该 指标 对 词语 的 出 现 频率 特 
征 进行 量化 。 对 于 任何 一 个 词语 W， 

wn de 


其 中 n 是 数据 集中 查询 表达 式 Q 的 总 数量 ;N 
(W) 表 示 词 语 W 出 现在 数据 集 的 查询 表达 式 的 频次 ， 
取 值 范 围 为 [1,n|]。 如 果 一 个 词语 出 现在 所 有 的 查询 
表达 式 中 ,那么 其 出 现 频率 SW) 的 值 为 0; 如 果 一 个 
词语 仅仅 出 现在 一 个 查询 表达 式 中 ,那么 其 出 现 频率 


SCW) 的 值 为 最 大 值 og( "> 。 
对 数据 集中 的 所 有 查询 表达 式 中 的 每 个 词语 W 


S(W)= log( 


(5 查询 表达 式 所 含 特定 词 常 被 作为 识别 用 户 查 询 意 
图 移 重 要 特征 。 本 研究 根据 “百度 学 术 "用 户 查询 
时 天 情况 ,发 现 学 术 文献 类 和 知识 问答 类 有 较为 明显 
的 词 中 信息 特征 。 例 如 ,对 于 学 术 文献 类 ,发现 查 询 表 
达 式 中 经 常 直接 使 用 包含 引文 格式 的 相关 信息 (如 :使 
用 [J] [C] 等 中 文 引文 规范 来 表示 杂志 和 会 议 文献 ) ; 
对 于 知识 问答 类 ,发 现 其 查询 表达 式 中 疑问 词 使 用 较 
多 ;具体 如 表 2 所 示 : 


表 2 词 中 信息 维度 特征 
类 别 特征 
学 术 文献 类 :参考 ” 含有 年 份 (如 :2005) ;含有 书 名 号 / 双 引 号 ;含有 中 文 
文献 著录 特征 。 引文 相关 (如 :包含 [J]/[C]JZ[M]Z[D]) ;含有 英文 


引文 相关 (如 :包含 et al. /ACM/Springer/Emerald/ 
Elsevier/ Press 等 ) 

含有 中 文 疑 问 词 (如 : 谁 \ 什 么 、 哪 里、 几时、 多 少 、 怎 
么 .为 什么 .是否 、 能 否 等 ) ;含有 英文 疑问 词 ( 如: 
who, what, which, whose, when how, why 等 ); 含 有 


其 他 疑问 相关 词 ( 如 : 试 析 ` 浅 论 ,原因 、 区 分 等 ) 


知识 问答 类 :疑问 
词 特征 


3.1.3 实体 特征 
在 综合 搜索 的 查询 式 中 经 常会 出 现 


4 
3 


3k 


命 


名 实体 ,J 


计算 其 出 现 频率 S CW) ,针对 每 个 查询 表达 式 Q 计算 
出 每 个 查询 表达 式 的 最 大 出 现 频率 Su (CQ) 、 最 小 出 


现 频率 Sun CQ) 和 平均 出 现 频率 Save (CQ) — T BERE 3T 
算 公 式 为 : 
Suax (Q) = Max S(W) 公式 (2) 
Sux CQ) = Min S(W) 公式 (3) 
Weg W — pj 
S (Q) = REC Com CW) dodi Q i 
不 同 W 的 数量 。 
3.2 二 层 分 类 器 的 构建 


针对 实验 数据 的 训练 集 较 小 的 特点 ,为 提高 结果 
准确 度 ,本 研究 对 于 五 类 学 术 查 询 意 图 中 的 每 个 类 别 
采用 二 元 分 类 法 :针对 于 每 个 学 术 查 询 意图 类 别 ,本 研 
究 构建 了 一 个 监督 学 习 算法 ,将 查询 表达 式 表 示 成 一 
系列 的 特征 X, 在 目标 空间 中 寻找 到 一 个 最 优化 函数 
可 根据 特征 X 预测 查询 表达 式 是 否 属于 的 查询 意图 类 
别 y。 该 过 程 也 可 以 简单 的 表示 成 以 下 公式 : 

y=F(x) 


公式 (4) 
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查询 表达 式 的 特征 抽取 及 训练 集 规模 将 会 影响 监 
督学 习 算法 的 效果 。 由 于 本 研究 可 用 于 监督 学 习 算法 
训练 的 数据 集 较 小 ,为 提升 效果 将 从 以 下 两 个 方面 改 


sm | 


标注 的 训练 数据 集 


获得 大 规模 
数据 


善 :中 抽取 可 以 表征 训练 数据 的 合适 特征 ,@ 获 取 足 够 
多 的 训练 数据 集 。 基 于 此 ,本 研究 提出 一 种 两 层 分 类 
器 来 实现 学 术 查 询 意 图 的 自动 识别 ,如 图 1 所 示 : 


Logistic 回归 模型 进行 


一 分 关 训 红 弱 分 类 器 获得 


人 


深度 学 习 DNN 
模型 的 训练 


图 1 两 层 分 类 器 算法 逻辑 示意 


在 第 一 层 ,实验 人 员 从 4 000 条 的 标注 数据 中 , 采 
用 Logistic 国明 算法 根据 查询 表达 式 的 四 类 数据 特征 
训练 出 一 个 分 类 器 。 由 于 分 类 结果 的 召回 率 较 低 , 称 
ERAEN. 采用 二 项 Logistic [il 
归 模 型 对 每 一 个 输入 的 查询 表达 式 依次 做 二 元 判断 是 
TUR T AER COR AER Sc HOS IR EROR ANR 
i . 非 学 术 文献 类 这 五 个 查询 类 别 ,在 标注 数据 集 上 
过 每 分 类 器 训练 ,得 到 弱 分 类 器 。 
号 第 二 层 为 深度 学 习 分 类 器 ， 采用 深度 学 习 的 DNN 
模型 进行 训练 与 分 类 。 首 先 ,利用 第 一 层 的 弱 分 类 器 
对 查询 表达 式 的 
学 术 查 询 意图 类 别 进行 预 分 类 ;其 次 , 预 分 类 的 标注 数 
son 层 分 类 器 的 输入 数据 ,用 于 DNN 模型 的 训 

UE 在 大 规模 数据 集 下 ,第 二 层 分 类 器 仍 能 够 
Oba s p top X df. 将 这 
部 谷 在 大 规模 数据 集 下 学 习 到 的 新 特征 统称 为 “关键 
词 哆 "特征 ,用 于 提高 本 层 分 类 器 的 效果 。 例 如 ,有 两 
个 查询 表达 式 “ 关 于 春天 的 谚语 有 哪些 "“ 关 于 秋天 的 
谚语 有 哪些 " ,由 于 都 含有 词 中 信息 类 特征 “哪些 ” , 纶 


1cc6aace735c0285f62d345fb00d3e4f 
bc4c5691deef09e65cd227eab4052572 
151d10ac97£55568e4697b6164384e7d 


0b8dl163d6c968d58cf196c07e6d429ec 


2018-03-01 22:13:18 
2018-03-01 00:00:46 
2018-03-01 13:59:01 
2018-03-01 13:35:50 


分 类 器 将 会 把 他 们 归 类 为 知识 问答 类 。 伴 随 大 规模 数 
据 集 中 这 类 查询 表达 式 出 现 频次 的 提高 ,深度 学 习 分 
类 器 将 会 学 习 到 "关于 XX 的 谚语 ”是 重要 的 关键 词 ， 
当 遇 到 “关于 龙 的 谚语 ”这 类 查询 查询 式 时 ,深度 学 习 
分 类 器 依据 新 提取 的 “关键 词类 ”特征 ,会 将 其 归 为 知 
识 问答 类 。 本 实验 采用 Python 代码 构建 ,调用 Tensor- 
Flow 开源 软件 库 。 


4 实验 


4.1 实验 数据 

本 研究 获得 了 由 百度 学 术 提 供 的 查询 日 志 为 实验 
数据 ,该 日 志 记录 了 用 户 在 "百度 学 术 " 搜索 栏 中 所 有 
的 交互 信息 ,每 一 条 数据 记录 了 用 户 的 唯一 标识 符 
(UID) 查询 时 间 (Time) AWRA (Query) 以 及 查 
T8 IP HERECIP) , 见 图 2。 数 据 总 414 886 条 , Jil 


i 1 000 IREE ——— VEPEADER 
查询 意图 类 目 体 系 标 注 了 相应 的 类 别 ,本 文 将 这 1 000 
条 数据 作为 测试 集 。 

xi| 7f: (2005) 

YP LR Do XE PE Pr dc 


和 车牌 识 别 
RARI SC ERAS 


101.94.11.33 
123.147.246.98 
180.169.121.82 
219.230.160.122 


图 2 百度 查询 日 志 数 据 格式 样 例 


在 清洗 后 的 数据 集中 ,笔者 随机 抽取 与 测试 集 不 
同 的 4 000 条 数据 作为 训练 集 ,招募 了 情报 学 专业 研 
究 生 一 年 级 , 且 有 相关 标注 工作 经 验 的 6 名 同学 ,将 
4 000 条 学 术 查 询 数 据 标 注 为 “学 术 文 献 类 ”“ 学 术 实 
体 类 ”“ 学 术 探 索 类 ”“ 知 识 问 答 类 ”和 “ 非 学 术 文 献 
类 ”五 个 类 别 。 上 有 具体 过 程 如 下 : 

(1) 为 标注 者 介绍 了 标注 任务 背景 实验 钦 辑 和 


其 标注 的 数据 集 的 使 用 背景 。 

(2) 编 写 《 学 术 搜 索 查询 意图 人 工 标 注 指 南 》, 介 
绍 学 术 查 询 意 图 类 目 体系 ,以 1 000 条 测试 集中 实例 
说 明了 5 种 学 术 查 询 意 图 的 界限 ,使 标注 者 对 查询 意 
图 的 分 类 有 大 体感 知 。 

(3) 每 两 人 一 组 ,独立 根据 上 述 要 求 ,对 全 部 分 配 
的 数据 进行 类 别 标注 。 前 两 组 每 组 分 配 1 340 条 数 
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据 , 第 三 组 分 配 1 320 条 ,合计 4 000 条 数据 。 人 允许 标 
注 者 在 产生 标注 疑惑 时 可 借助 百度 的 查询 结果 页 内 容 
进行 判断 。 

完成 人 工 标注 任务 后 ,笔者 采用 Kappa. 系数 来 衡 
量 标注 结果 之 间 的 一 致 性 ,对 上 述 3 组 的 标注 结果 进 
行 了 一 致 性 检验 , Kappa 值 分 别 为 0. 776,0. 759、 
0. 806 ,Kappa 值 均 高 于 0. 75 ,说 明 标注 者 之 间 分 类 判 
别 的 一 致 性 较 高 。 对 于 标注 结果 不 同 的 数据 ,笔者 后 
续 召 集 了 所 有 的 标注 者 对 其 进行 讨论 ,并 按照 多 数 性 
原则 最 终 类 别 。 

4 000 条 查询 表达 式 的 学 术 查 询 意图 标注 结果 按 
查询 意图 类 别 的 统计 分 析 结 果 如 下 表 3 所 示 : 

表 3 训练 集 学 术 查 询 意 图 分 类 比例 结果 统计 


TX 学 术 学 术 学 术 知识 非 学 术 "T 
d 文献 类 ”实体 类 ”探索 类 问答 类 ”文献 类 — 7 
TZ 1058 161 1845 561 341 3 966 
T 26.68 — 4.06 46.52 14.14 8.60 100 


i 比 /% 


Cist 4 000 条 数据 中 ,有 34 条 数据 为 完全 没 
源 义 的 文字 或 纯 标点 符号 ,不 构成 学 术 查 询 表达 式 ， 

无 起 将 其 归 类 为 5 类 学 术 查 询 意图 , 故 对 其 剔除 ,其 余 

3 666 条 数据 进行 分 类 统计 ,可 知 学 术 查 询 意图 为 “学 

术 换 索 类 "的 查询 表达 式 比 例 最 高 。 

CNF 图 3 是 对 本 次 实验 人 工 标注 的 训练 集 (3 966 

条 3 和 和 测 试 集 (1 000 条 ) 的 学 术 查询 意图 类 别 比 例 进 


不 同 算法 的 统计 结果 。 从 表 中 的 数据 可 以 看 出 ,在 宏 
平均 准确 率 方面 ,SVM 效果 最 佳 为 0.789 ,在 宏 平 均 召 
回 率 方面 , Naive Bayes 效果 最 佳 为 0.755。 但 同时 可 
以 发 现 , 单 层 分 类 器 并 不 能 很 好 的 兼顾 准确 率 和 召回 
率 两 个 指标 ,其 中 大 多 数 算法 的 召回 率 值 偏 低 ;而 本 研 
究 所 提出 的 两 层 分 类 需 在 保持 准确 率 的 基础 上 ,提升 
召回 率 ,最 终 达 到 了 宏 平均 准确 率 为 0.767 KFA 
回 率 为 0.586 、 宏 平均 F1 值 为 0.651 的 效果 。 由 此 说 
明了 ,本 文 所 提出 的 两 层 分 类 器 效果 优 于 其 他 4 种 单 
表 4 不 同 算法 的 实验 效果 


分 类 器 宏 平均 P 值 。” 宏 平 均 R 值 ZEB F fE 
Naive Bayes 0.389 0.755 0.489 
Logistic 回归 0.752 0. 524 0. 599 

SVM 0. 789 0.495 0. 588 
Random Forest 0. 702 0. 546 0. 603 
二 层 分 类 器 0.767 0.586 0.651 


X 5 展示 了 本 研究 所 提出 的 二 层 分 类 器 在 各 学 术 
查询 意图 类 别 的 分 类 情况 。 由 表 5 中 数据 分 析 可 以 发 
现 , 二 层 分 类 器 在 学 术 文献 和 学 术 探 索 两 类 上 分 类 效 
果 较 好 ,在 学 术 实体 类 和 知识 问答 类 分 类 效果 一 般 , 但 
仍 高 于 其 他 单 层 分 类 器 。 


乱 三 比分 析 结 果 。 可 以 看 到 ,两 次 人 工 标注 的 数据 集 
中 全 学 术 文献 类 ,学 术 实体 类 、 知 识 问答 类 "三 类 的 比 
合 晨 本 一 致 ,学 术 探索 类 和 非 学 术 文献 类 * 存 在 2% 

距 。 数 据 集 的 不 同和 标注 者 对 标注 说 明理 解 不 
同 都 会 造成 标注 结果 一 定 程度 的 误差 ,但 平均 比例 误 
差 为 1.13% ,说 明 训练 集 与 测试 集中 各 类 型 数据 所 占 
比例 相似 ,可 排除 模型 误差 。 


49.34% 
.13% 
26.44% 26.45% 
13.82% 14.03% 
3.53% 4.03% 6.86% 8.537% 
Em 
学 术 文 献 学术 实体 FRR 。 ”知识 问答 非 学 术 文献 


标准 数据 集 “ 训 练 集 
图 3 训练 集 与 测试 集中 学 术 查 询 意图 分 类 比例 对 比 图 


4.2 实验 结果 
表 4 统计 了 本 研究 中 4 个 预 实验 和 1 个 正式 实验 


表 5 二 层 分 类 器 最 终 实 验 效果 
类 别 P 值 R 值 F1 
学 术 文 献 类 0.758 0. 603 0.672 
学 术 实体 类 0.727 0. 444 0.551 
学 术 探索 类 0.738 0.834 0. 783 
知识 问答 类 0. 845 0.462 0. 597 
宏 平均 0.767 0. 586 0.651 


从 4 种 学 术 查 询 意图 类 别 的 维度 出 发 ,对 比分 析 
每 个 类 别 运用 不 同 分 类 器 的 分 类 效果 。 

(1) 学 术 文 献 类 : 表 6 呈现 了 4 个 预 实验 分 类 器 和 
1 个 二 层 分 类 器 在 学 术 文献 这 一 类 别 的 实验 结果 。 从 
Fl 值 上 看 ,采用 Random Forest 算法 的 单 层 分 类 器 效果 
最 佳 (0. 697) ,本 研究 提出 的 二 层 分 类 器 效果 次 之 
(0.672) .总 体 来 说 ,5 种 分 类 器 在 学 术 文献 类 查询 式 
的 自动 识别 上 效果 良好 。 


表 6 不 同 分 类 器 在 学 术 文 献 类 的 效果 
分 类 器 P 值 R 值 F1 
Naive Bayes 0. 565 0. 667 0.612 
Logistic 回归 0.748 0. 602 0. 667 
SVM 0.804 0.567 0. 665 
Random Forest 0.721 0.674 0. 697 
二 层 分 类 器 0.758 0. 603 0.672 
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在 已 有 研究 中 Y. Khabsa ”等 对 学 术 搜索 引擎 
CiteseerX 进行 查询 意图 分 析 时 ,对 其 中 导航 类 查询 意 
图 ( 占 比 为 12. 5% ) 做 了 自动 识别 研究 。 在 其 定义 框 
架 下 ,学 术 搜索 中 导航 类 查询 为 “用 户 查 询 意 图 为 希望 
搜索 到 某 种 出 版 物 ”, 与 本 研究 的 “学 术 文献 类 ”定义 
一 致 。 针 对 该 类 查询 ,Y. Khabsa 采用 GBT 算 法、 以 人 
工 标注 的 579 条 数据 为 训练 集训 练 分 类 器 ,其 实验 结 
果 为 :准确 率 0.68 召回 率 0. 68 Fl 值 0.677。 本 研究 
的 “学 术 文献 类 ”实验 结果 与 之 基本 持平 ,在 Fl 指标 
上 咯 有 提升 。 

(2) 学 术 实 体 类 : 表 7 呈现 了 4 个 预 实验 分 类 器 和 
1 个 二 层 分 类 器 在 学 术 实体 这 一 类 别 的 实验 结果 。 本 
研究 所 提出 的 二 层 分 类 器 在 P 值 和 FI 值 上 均 比 预 实 
骏 闪 类 器 效果 好 ,但 总 体 上 ,学术 实 体 类 的 查询 意图 识 
别 在 四 种 学 术 查询 意图 类 别 中 的 效果 最 差 , 有 以 下 两 
人 原因 :一 是 本 研究 实体 识别 的 工具 采用 Stanford 实 
优 误 别 工具 ,中 文 实体 识别 效果 不 佳 ,而 中 文 查询 表达 
E 15 t f 70% ;二 是 本 研究 在 类 别 分 类 时 规定 ， 
人 富有 一 位 学 者 的 查询 表达 式 归 为 学 术 实体 类 ,含有 


€ 


从 学 者 名 的 查询 表达 式 归 为 “学术 全 文 类 ”, 导 致 学 


相关 体 类 的 自动 识别 不 是 简单 的 实体 识别 问题 ,还 包 
(e 


全 和 断 查 询 表达 式 中 学 者 数量 的 问题 ,从 而 导致 了 该 


类 别 学 术 查 询 意图 识别 效果 较 低 。 
表 7 不 同 分 类 器 在 学 术 实体 类 的 分 类 效果 


3 分 类 器 P (f R fi Fl 
C” Naive Bayes 0.247 0. 543 0.339 
(77 Logistic 回归 0. 688 0.314 0.431 

[e 
CQ) SVM 0.714 0. 286 0. 408 
Random Forest 0.632 0.343 0.444 
二 层 分 类 器 0.727 0.444 0.551 


(3 ) 学 术 探索 类 : 表 8 呈现 了 4 个 预 实验 分 类 器 和 
1 个 二 层 分 类 器 在 学 术 探 索 这 一 类 别 的 实验 效果 。 二 
层 分 类 器 在 Fl 值 上 得 分 最 高 ,其 准确 率 和 召回 率 得 分 
也 较 高 ,说 明 该 分 类 其 在 学 术 探 索 类 识别 的 效果 较 好 ， 
该 类 查询 表达 式 占 总 体 查询 表达 式 的 比例 最 大 ,为 


4696 左右 。 
表 8 不 同 分 类 器 在 学 术 探索 类 的 分 类 效果 

分 类 器 P 值 R {E FI 
Naive Bayes 0.524 0. 864 0.652 
Logistic 回归 0.716 0.767 0.741 
SVM 0.749 0. 749 0. 749 
Random Forest 0.711 0.721 0.716 
两 层 分 类 器 0. 738 0. 834 0. 783 


(4) 知识 问答 类 : 表 9 呈现 了 4 个 预 实验 分 类 器 和 
1 个 二 层 分 类 器 在 知识 问答 这 一 类 别 的 实验 结果 。 可 
以 看 到 ,除了 Naive Bayes 方法 外 的 召回 率 都 普遍 较 
低 ; 本 文 所 提出 的 两 层 分 类 器 总 体 上 看 (F]1 值 ) 还 是 略 


好 于 其 余 方法 。 
表 9 不 同 分 类 器 在 知识 问答 类 的 分 类 效果 

分 类 器 P fH R fi FI 
Naive Bayes 0.219 0. 946 0.355 
Logistic 回归 0. 857 0.415 0.559 
SVM 0. 891 0.377 0. 530 
Random Forest 0. 744 0.446 0. 558 
两 层 分 类 器 0. 845 0. 462 0.597 


5 总 结 与 展望 


本 研究 聚焦 学 术 查 询 意 图 的 分 类 研究 ,通过 对 学 
术 查 询 表达 式 进行 分 析 , 基 于 已 有 研究 对 查询 表达 式 
从 基本 信息 、 词 中 信息 词 .实体 信息 和 词汇 出 现 频率 的 
统计 特征 四 个 方面 进行 基础 的 特征 描述 ,构建 了 针对 
学 术 查 询 进行 查询 意图 自动 识别 的 两 层 分 类 器 ,并 基 
于 大 规模 数据 的 分 类 特征 提取 了 “关键 词类 ”特征 。 
对 比 其 他 单 层 分 类 器 相 比 ,本 研究 提出 的 两 层 分 类 器 
在 宏 平均 Fl 值 上 取得 较 好 结果 ,能够 有 效 兼 顾 不 同 查 


询 意图 类 别 的 准确 率 与 召回 率 。 


本 研究 的 不 足 之 处 在 于 ,由 于 针对 学 术 查 询 意图 
研究 的 成 果 相 对 较 少 ,缺乏 统一 的 .大 规模 的 评测 数据 
集 , 因 此 ,本 研究 的 两 层 分 类 器 效果 难以 与 其 他 实验 结 
果 进 行 横向 对 比 。 下 一 步 将 着 重 推广 学 术 查 询 意 图 自 
动 识别 的 相关 数据 集 ,促进 不 同方 法 针对 学 术 查 询 意 
图 的 自动 识别 的 横向 对 比 。 
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Abstract; | Purpose/significance | To find the solutions of automatically identifying search query intent and im- 


prove the efficiency of academic search engines. | Method/process | Combining the features of query intent and aca- 


demic search, we constructed the feature from four aspects, which are the basic descriptive statistics, the special 


keywords, entity information and the frequency. For the experiments, we examined four types of classifiers which are 


the Naive Bayes, Logistic regression, SVM, Random Forest and calculated precision, recall and F-measure. A meth- 


od which is extending the recognition results of academic query intent predicted by Logistic regression algorithm to 


large-scale data sets and extracting " keyword type" features is proposed to construct a two-layer classifier based on 


deep learning algorithm for academic query intent recognition. | Result/conclusion | The macro-average F1 value of 


the two-layer classifier is 0. 651 , which is superior to other algorithms. This method can effectively balance the preci- 


sion and recall rate of different academic query intentions. The final second-layer prediction model receives the best 


classification performance, the score of F1 is 0. 783. 
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